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摘 要 : [目的 /意义 ] 论 辨 挖掘 引 在 识别 论辩 性 文本 中 的 论辩 结构 ,从 而 能 够 理解 结论 获得 的 原因 与 过 程 ,具有 重要 的 学 
术 和 应 用 价值 ,近年 来 在 社交 媒体 内 容 挖 气 、 法 律 辅助 判 案 、 决 策 支 持 等 方面 得 到 了 广泛 关注 ,是 文本 挖 气 领 域 一 
个 新 兴 研 究 方向 。 本 文 旨 在 对 论辩 挖掘 的 研究 与 应 用 现状 进行 梳理 与 总 结 ,发 气 研 究 热 点 ,为 未 来 研究 提供 参 
考 。 |[ 方法 “过程 ] 在 计算 语言 学 会 (ACL ) 数 据 库 和 Web of Science 数据 库 中 ,分 别 以 argument mining, argument 


structure „argument component 为 检索 词 进行 检索 , 结 


合 手工 筛选 ,采集 到 有 关 论 辨 挖掘 的 文献 共 220 篇 ,采用 精读 


方式 ,从 论辩 模型 .论辩 挖掘 任务 和 论辩 挖 气 应 用 三 个 方面 对 当前 研究 进行 了 分 析 与 总 结 。[ 结果 /结论 ] 论辩 挖 


未 来 可 从 论辩 标注 方案 论辩 成 分 与 关系 识别 、 
词 : 论辩 挖 气 ”论辩 模型 论辩 结构 “论辩 成 分 
: G254 


握 的 研究 才刚 刚 起 步 , 对 社交 媒体 等 简单 论辩 性 文本 的 研究 较 多 ,而 对 科学 论文 等 复杂 论辩 性 文本 的 研究 较 少 ， 
论辩 结构 优化 三 个 方面 对 复杂 文本 展开 研究 。 


加 论辩 是 一 个 古老 的 话题 ,最 早 可 追溯 到 亚 里 士 多 
德 时 期 ,涉及 哲学 .语言 学 ,心理 学 等 多 个 学 科 的 内 容 。 


或 咀 倒 对 方 为 目的 ,从 不 同 角度 分 析 问 题 ,提出 支持 或 
反 倍 某 观 点 的 原因 ,并 最 终 推理 出 相应 结论 ""。 论 状 
的 基本 结构 包括 一 系列 前 提 和 一 个 结论 ,以 及 前 提 和 
前 所 ,前提 和 结论 之 间 的 支持 或 反对 关系 ,其 中 前 提 
和 结论 属于 论辩 成 分 ,而 成 分 间 的 关系 则 被 称 为 论辩 
关系 ,论辩 成 分 和 论辩 关系 共同 构成 论辩 结构 。 分 析 
论辩 文本 中 的 论辩 结构 ,能 够 更 好 地 理解 论辩 者 所 持 
观点 以 及 观点 背后 的 原因 。 在 当前 数字 环境 和 网 络 环 
境 中 存在 着 大 量 的 论辩 性 文本 ,如 产品 评论 ,法律 判决 
书 、 新 闻 评 论 . 议 论文 .科学 论文 等 ,这 些 文本 中 蕴含 着 
重要 的 观点 及 其 论证 过 程 ,但 往往 隐 含 在 非 结构 化 或 
半 结构 化 文本 当中 ,如 何 自动 地 从 文本 中 解析 出 论辩 
结构 是 亟待 解决 的 问题 ,因此 论辩 挖 据 这 一 新 兴 研 究 
领域 应 运 而 生 。 

论辩 挖 据 是 自然 语言 处 理 与 机 器 学 习 技术 在 论辩 


性 文本 中 应 用 的 产物 ,属于 文本 挖掘 的 一 个 分 文 , 也 是 
对 意见 挖掘 (opinion mining ) 的 延伸 和 拓展 。 早 在 
2007 年 ,M.F，Moens 和 N. Kwon 等 分 别针 对 法 律 文本 
和 评论 文本 进行 了 论辩 挖掘 研究 ”“” ,开启 了 这 一 新 
的 研究 领域 。2009 年 ,R. M. Palau 和 M. F. Moens 首次 
对 论辩 挖掘 的 基本 任务 进行 了 明确 定义 , 即 利 用 自然 
语言 处 理 技 术 从 非 结 构 化 的 论辩 性 文本 中 自动 抽取 论 
辩 文 本 中 的 论点 ,分 析 论 点 的 内 部 结构 以 及 不 同 论点 
间 的 关系 ,最 终 提 供 结构 化 的 论辩 知识 ” 。 近 年 来 , 随 
着 论辩 性 文本 的 大 量 出 现 和 自然 语言 处 理 技术 的 发 
展 ,论辩 挖掘 研究 得 到 了 广泛 关注 。 自 2014 年 开始 ， 
大 量 有 关 论 辩 挖 掘 的 国际 会 议 被 举办 ,譬如 ,国际 计算 
语言 协会 年 会 中 的 论辩 挖掘 专题 讨论 会 (Argument 
Mining Workshop, ACL 2014)' ,苏格兰 信息 与 计算 机 
科学 联盟 论辩 挖掘 主题 讨论 会 (SICSA Workshop on 
Argument Mining) 7] 。 

随 着 论辩 挖掘 研究 的 深入 与 发 展 ,研究 者 们 正在 
积极 探索 论辩 挖掘 技术 在 不 同 领域 的 应 用 ,譬如 ,抽取 
法 律 文本 中 的 论辩 成 分 和 论辩 结构 以 实现 辅助 断 
ROO ,通过 解析 学 生 议 论文 论辩 结构 的 合理 性 对 其 实 
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现 自动 评分 ”。 文 本 信息 的 挖掘 与 组 织 是 图 书 情报 学 
科 的 核心 研究 内 容 之 一 ,而 论辩 挖掘 则 是 从 论辩 角度 
对 非 结构 化 文本 中 的 信息 进行 挖掘 与 组 织 的 一 种 技术 
与 方法 ,是 文本 挖掘 在 论辩 性 文本 这 种 特定 语 料 中 的 
应 用 ,因此 论辩 挖掘 在 图 情 学 科 具 有 重要 的 研究 与 应 
用 价值 。 

本 文 对 已 有 的 论辩 挖掘 文献 进行 梳理 总 结 ,着重 
介绍 目前 论辩 挖掘 领域 的 研究 进展 和 研究 热点 ,追踪 新 
的 研究 成 果 , 并 分 析 其 发 展 趋势 ,以 期 引起 国内 图 情 学 
者 对 论辩 挖掘 这 一 研究 领域 的 进一步 关注 ,为 图 情 学 科 
的 信息 挖掘 与 信息 组 织 提供 新 的 视角 和 新 的 应 用 。 
2 论辩 模型 和 论辩 语 料 
oF 论辩 模型 

全 论辩 模型 是 对 论辩 过 程 的 抽象 化 或 概念 化 描述 ， 
霜 要 由 论辩 成 分 和 论辩 成 分 间 关系 组 成 。J Bentahar 
等 根据 论辩 模型 的 描述 内 容 和 粒度 将 其 分 为 独白 型 
( Mopological model ) .对话 型 (Dialogical model ) 和 修辞 
型 Rhetorical model) =p") 。 独 白 型 模型 关注 论辩 的 
角钢 内 部 结构 , 措 述 论点 内 部 的 论辩 成 分 以 及 各 成 分 


间 的 关系 ,代表 性 模型 有 图 尔 敏 ( Tuolmin ) 模型 ” 、 弗 
里 曼 (Freeman ) 模型 和 论辩 型 式 模型 ”。 对 话 模型 关 
注 论辩 的 宏观 结构 ,主要 刻画 不 同 论点 间 的 关系 ,而 非 
论点 内 部 的 关系 ,代表 性 模型 有 P. M. Dung 的 宏观 模 
型 。 修 辞 型 模型 则 主要 关注 论辩 的 修辞 结构 , 旨 在 
为 说 服 对 方 而 对 论 关 内容、 论辩 形式 进行 相应 的 策略 
安排 ,而 非 论 辩 的 宏观 或 微观 结构 ,代表 性 模型 有 佩 雷 
JK & (Perelman) 新 修辞 模型 “ 。 论 辨 挖掘 主 要 关注 论 
辩 的 微观 结构 ,因此 本 节 主 要 介绍 关注 论点 内 部 结构 
的 独白 型 模型 ,其 代表 性 模型 主要 有 以 下 几 种 。 
2.1.1 前 提 - 结论 模型 

前 提 - 结论 模型 是 最 基本 也 是 应 用 最 为 广泛 的 论 
辩 模型 ,该 模型 将 一 个 论辩 (Argument ) 简单 地 抽象 为 
由 一 个 或 一 组 前 提 (Premise) 和 一 个 结论 ( Claim ) 构 
成 ,结论 是 论辩 者 提出 的 某 一 观点 ,前提 则 给 出 了 支持 
或 者 反对 此 观点 的 原因 , 见 图 1。 该 论辩 模型 结构 
简单 ,无 法 区 分 不 同 前 提 的 作用 ,对 复杂 论辩 内 容 的 描 
述 能 力 较 弱 。 在 目前 论辩 挖掘 研究 中 ,社交 媒体 内 容 
因 其 论辩 结构 相对 简单 ,多 采用 ”前提 - 结论” 模型 对 
论辩 内 容 进行 描述 。 


eZ We KL 前 提 : 慢跑 能 所 高 心肺 功能 | 、 
© H os ve Pe NEY ss 


~ j 
Se 结论: 慢跑 有 益 身体 健康 
| 


we H 前 所 :慢跑 能 提高 人 体 活力 | 


2.62 图 尔 敏 模型 

©1958 年 英国 哲学 家 图 尔 敏 (S.E. Tuolmin ) 在 对 法 
律 文本 的 论辩 内 容 进 行 总 结 放 析 的 基础 上 提出 了 图 尔 
敏 模型 。 该 模型 包括 结论 ( Claim) .前 提 (Datum) 、 
保证 (Warant) 支援 (Backing)、 模 态 限 定 词 ( Modal 
Qualifier ) 和 反驳 ( Rebuttal ) 六 个 部 分 ,其 中 主张 .前 提 
和 保证 是 论辩 结构 的 核心 要 素 , 见 图 2。 结 论 是 指 一 
个 断言 ,是 论辩 者 提出 的 主要 观点 ;前 提 为 推出 结论 所 
给 出 的 理由 ;保证 是 将 前 提 与 结论 联系 起 来 的 推理 链 ， 
表明 如 何 由 前 提 推 理 出 结论 ;支援 说 明 保证 的 可 靠 性 ; 
模 态 限定 词 ( 如 大 概 、 一 定 等 ) 指 结论 的 可 靠 程 度 ; 反 
驳 是 指 对 论辩 的 反驳 。 图 尔 敏 模型 描述 的 论辩 成 分 类 
型 比较 丰富 且 论 辩 结构 复 杂 ,适用 于 独白 型 复杂 长 文 
本 (如 法 律 判决 书 ) 中 论辩 结构 的 标注 。 在 一 些 简单 
文本 (如 社交 媒体 内 容 ) 中 ,存在 保证 ,反驳 等 成 分 未 
明确 表达 的 情况 ,因此 比较 难以 适用 图 尔 敏 模型 。 


1 前提- 结论 模型 


2.1.3 标准 方案 
标准 方案 (Standard Approach ) 指 前 提 的 组 织 方式 ， 
可 以 通过 收敛 序列、 组 合 和 发 散 等 方式 描述 前 提 间 的 
KARP , 见 图 3。 收 敛 指 不 同 前 提 分 别 从 不 同方 了 
(角度 ) 论 证 同一 个 结论 , 见 图 3(a) 。 序 列 是 指 先 由 初 
台 前 提 推 论 出 一 个 中 间 结 论 ,然后 以 该 中 间 结 论 为 前 
提 进 一 步 推出 最 终结 论 , 见 图 3(b) 。 组 合 是 指 两 个 或 
多 个 前 提 共 同 推理 出 一 个 结论 , 见 图 3(c)。 发 散 是 指 
一 个 前 提 能 够 推理 出 两 个 不 同 的 结论 , 见 图 3(d) 。 标 
准 方案 相 比 于 图 尔 敏 模型 更 为 灵活 ,能够 通过 这 四 种 
模式 将 多 个 不 同 的 子 论证 进行 关联 和 再 组 织 ,形成 更 
为 复杂 的 论证 结构 
2.14 弗 里 曼 模 型 
弗 里 曼 模型 "是 由 美国 学 者 J B. Freeman 于 
1991 年 对 图 尔 敏 模型 和 标准 方案 进行 整合 改造 而 
来 的 论辩 模型 。 弗 里 曼 模 型 主要 由 前 提 ( Premise) \ 结 
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结论 : 哈里 是 
Be 
BR: 除非 他 
已 经 获得 其 他 
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前 提 : 吸烟 导致 
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前 提 : 食盐 摄 人 过 多 
会 导致 高 血压 


结论 : 限制 食盐 摄 人 能 
预防 高 血压 
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图 3 mene 


增加 了 对 反驳 内 容 进行 进一步 论辩 的 反 - RMT, 


JQ ( Counter-rebuttal )5 个 要 素 构 成 ,除了 与 图 尔 敏 模 如 图 4 所 示 : 
型 外 相同 的 4 个 成 分 , 即 前 提 、 结 论 EAS tel AIR IB 
前 提 : 互联 网 前 担 ， 儿童 容 
HARTE REF 
-Be: 利 | | ag JLA 
i - 3 | Rw = 用 手机 学 习 用 手机 也 可 | 一 让 模 态 词 ; 可 能 
实例 | 效率 很 低 以 学 习 知 识 
结论 ; 需 
结论 ew rea 
手机 


4” 弗 里 曼 论辩 模型 


相 较 于 标准 方案 , 弗 里 曼 模型 继承 了 图 尔 敏 模型 
中 的 反驳 和 模 态 词 成 分 并 加 以 改良 ,使 得 模型 更 为 灵 
活 ,对 论辩 结构 刻画 得 也 更 为 深刻 。 相 较 于 图 尔 敏 模 
型 , 弗 里 曼 模 型 舍弃 了 图 尔 敏 模型 中 对 前 提 \ 保 证 和 文 
援 的 细 分 ,允许 前 提 通 过 组 合 ,收敛 等 不 同方 式 支 持 结 
论 ,弥补 了 图 尔 敏 模型 不 能 刻画 由 多 个 子 论证 构成 复 


杂 论 证 的 不 足 。 此 外 ,增加 了 反 -反驳 成 分 ,使 得 能 够 
在 考虑 反例 的 基础 上 对 反驳 做 进一步 论辩 ” 。 


2.1.5 论辩 型 式 
论辩 型 式 ( Argument Scheme ) 指 自然 语言 交谈 或 


论证 中 所 使 用 的 推理 结构 , 即 论辩 中 常见 的 假设 性 、 似 
真性 推理 模式 ,是 一 种 不 同 于 演绎 和 归纳 的 第 三 类 推 
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B'S ,描述 了 前 提 到 结论 所 代表 的 推理 规则 ,体现 了 
人 的 推理 思维 过 程 ,如 因果 关系 类比 关 系 等 。 论 辩 控 
掘 任务 中 通常 采用 加 拿 大 逻辑 学 家 D. Walton 对 论辩 
型 式 的 分 类 '"” ,该 分 类 体系 共 包含 96 种 论辩 型 式 ,但 
在 实际 任务 中 往往 只 选取 某 几 种 常用 型 式 描述 文本 的 
论辩 结构 ,如 专家 推理 的 论辩 型 式 .基于 类 比 的 论辩 型 
7) ,如 表 1 所 示 : 
#1 论辩 型 式 举例 
前 提 1:E 是 包括 命题 A 的 学 科 领 域 $ 中 的 一 个 专家 


前 提 2:E 断言 A 

结论 ;大概 A 是 正确 的 

前 提 1:Al 和 A2 具有 相似 性 

前 提 2: 在 条 件 B 下 ,Al 是 成 立 的 
结论 :在 条 件 B 下 ,A2 也 可 能 是 成 立 的 


专家 推理 


类 比 


T = 图 尔 敏 模型 和 弗 里 曼 模型 的 推理 规则 隐 含 在 论辩 成 


SUPA CORSE SS PAE EIU. (AH 
IN Le ORE ESP AN AE 
2 op 论辩 文本 语 料 与 标注 方案 


尺 进 行 论辩 挖 所 事先 需要 大 量 人 工 标注 好 的 训练 数 
握 负 对 不 同 的 论辩 文 本 语 料 ,其 论证 结构 不 同 ,需要 
梅 建 合适 的 论辩 标注 方案 。 论 准 标 注 方案 与 论辩 模型 
部 溃 和 不同 ,是 对 论辩 模型 的 具体 调整 和 综合 应 用 。 
下 千 我 们 从 文本 类 型 和 论辩 结构 两 个 角度 对 论辩 标注 
TPR EET o 

四 不 同类 型 文本 的 规范 性 有 很 大 不 同 ,而 文本 规范 
会 在 很 大 程度 上 影响 论辩 标注 的 难度 。 根 据 文本 
的 闫 范 性 及 结构 特征 可 以 将 论辩 性 文本 分 为 独白 型 长 
文本 与 交互 式 短文 本 :前 者 包括 学 生 议论 文 5 .科学 


论文 “等 ;后 者 则 包括 政策 议案 论辩 ,社交 媒体 中 用 
户 对 热点 问题 的 辩论 .产品 评论 二 等。 从 论点 数量 上 
来 看 ,独白 型 文本 中 通常 包含 多 个 论点 ,而 交互 型 
文本 在 一 轮 对 话 当中 往往 只 针对 一 个 问题 进行 辩论 。 
从 论辩 结构 上 来 看 ,独白 型 文本 的 论辩 内 容 和 结构 相 
对 复杂 ,往往 存在 多 个 论点 和 复杂 的 论辩 成 分 ,其 论辩 
结构 与 篇 章 结构 紧密 关联 ,论辩 过 程 体现 在 不 同 篇 章 
内 ,有 正式 的 论辩 流程 ;交互 型 文本 的 论辩 结构 则 相对 
简单 ,论辩 过 程 主要 体现 在 用 户 的 交互 行为 中 ,如 社交 
媒体 中 的 直接 回帖 和 间接 回帖 。 当 前 的 论辩 挖掘 研究 
多 针对 交互 式 短文 本 (如 社交 媒体 内 容 ) ,语料库 也 相 
对 丰富 。 但 是 ,短文 本 语 料 多 存在 着 规范 性 不 足 的 问 
B, 如 文本 表述 不 规范 .论辩 结 构 不 完整 ,这 给 论辩 挖 
气 带 来 了 不 利 影响 1。 

论辩 结构 有 宏观 和 微观 之 分 ,不 同 的 研究 者 常常 
根据 语 料 特点 和 实际 需求 选择 对 其 宏观 结构 还 是 微观 
SUE TE. EMAAR AZM MEA”, 
多 基于 对 话 型 模型 进行 标注 “”。 微 观 结构 指 同一 
个 论点 内 部 不 同 论辩 成 分 之 间 的 关系 ,多 基于 独白 型 
论辩 模型 进行 标注 。 此 外 ,也 有 研究 者 同时 对 论 闪 
文本 的 宏观 和 微观 论辩 结构 进行 综合 标注 ”。 目 前 
的 论辩 挖掘 研究 多 集中 于 对 微观 论辩 结构 的 标注 。 在 
采用 独白 型 论辩 模型 对 实际 语 料 进 行 标注 时 ,论辩 模 
型 中 定义 的 论辩 成 分 及 其 关系 往往 并 不 能 完全 契合 语 
料 的 实际 情况 ,因此 研究 者 们 往往 通过 对 论辩 模型 进 
行 调整 以 构建 特定 的 标注 方案 2 ” , 表 2 列 出 了 部 
分 研究 中 使 用 的 语料库 及 其 标注 方案 : 


表 2 代表 性 论辩 语 料 及 其 标注 方案 


语 料 语 料 类 型 语 料 主题 语种 标注 粒度 ”论辩 结构 论辩 模型 论辩 成 分 ”论辩 关系 
European Court of Human Rights!?! 长 文本 法 律 英语 句子 微观 结构 “前提 - 结论 模型 结论 支持 
法 律 文书 原因 反对 
C. StabL21] 长 文本 多 主题 英语 小 句 微观 结构 弗 里 曼 模型 。” 核心 结论 ， 反对 
议论 文 结论 支持 

前 提 

A. Lauscher!2?! 长 文本 计算 机 英语 小 句 微观 结构 图 尔 敏 模型 背景 结论 支持 
科学 论文 作者 结论 反对 

前 提 语义 等 同 
C. kirschner!?3! 长 文本 教育 英语 句子 微观 结构 “前提 - 结论 模型 结论 支持 
科学 论文 观点 反对 
假设 细节 
总 结 序列 
A Peldszus[24] 短文 本 多 主题 ” 英 德 双语 平行 M 微观 结构 弗 里 曼 模型 核心 结论 支持 
社交 媒体 结论 反对 


前 提 
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通过 对 论辩 语 料 标 注 的 相关 研究 进行 总 结 ,可 以 
看 出 ,由 不 同 的 论辩 挖掘 任务 需要 不 同 的 标注 方案 , 论 
辩 模 型 不 是 唯一 的 决定 因素 ,往往 会 根据 实际 情况 进 
行 调整 ,相应 地 细 化 论辩 成 分 或 增加 论辩 关系 ;@ 可 以 
同时 基于 多 种 论辩 模型 构建 标注 方案 ,如 同时 对 宏观 
和 微观 结构 进行 标注 ;@ 目 前 论辩 语 料 中 论辩 成 分 的 
标注 主要 集中 在 前 提 和 结论 两 种 ,对 其 他 论辩 成 分 的 
关注 较 少 ;由 在 一 个 论辩 链 中 ,论辩 成 分 的 角色 是 相互 
转化 的 ,前 一 个 论点 的 结论 可 以 作为 后 一 个 论点 的 前 
H ,但 现 有 大 多 数 标注 方案 未 能 体现 出 这 种 动态 变 


化 ;@@ 目 前 的 论辩 标注 语 料 以 英文 为 主 ,尚未 发 现 标 注 
好 的 中 文 语 料 库 。 
3 论辩 挖掘 任务 流程 

论辩 挖掘 任务 通常 分 为 论辩 结构 识别 和 论辩 结构 
优化 两 大 阶段 ,其 中 , 前 者 又 可 细 分 为 论辩 单元 识别 、 
论辩 成 分 分 类 和 论辩 关系 抽取 三 个 子 任务 ” ,后 者 
则 细 分 为 隐 性 论辩 成 分 识别 和 论辩 结构 全 局 优化 两 个 
子 任务 ,具体 流程 如 图 5 所 示 : 


论辩 单元 识别 论辩 成 分 分 类 论辩 结构 识别 
at 
- 前 提 
阶 cmon O 下 论辩 成 分 关联 判断 
S BE 论辩 单元 边界 识别 pole 论辩 关系 分 类 
N 5 
© ( 
= 化 隐 性 成 分 的 识别 = 论辩 结构 优化 
阶 
<P - 
O 图 5 ”论辩 挖掘 任务 流程 
o 
SGN 论辩 单元 识别 级 ) ;加 一 个 句子 中 既 包 含 论辩 性 成 分 也 包含 非 论辩 性 


Ci 论 状 单 元 是 指 论辩 结构 中 的 某 一 个 论辩 成 分 。 论 
状 吝 元 识别 是 论辩 挖掘 的 基础 ,主要 包括 两 个 步骤 : 论 
阁 写 识别 和 论辩 单元 边界 识别 , 即 首先 从 文本 中 识别 
出 手 有 论辩 性 质 的 句子 ,然后 确定 句 中 论辩 单元 准确 
KERLE , 见 图 6。 论 辩 单 元 的 界定 与 论辩 成 分 
的 颗粒 度 有 关 , 通 常 分 为 句子 级 和 小 句 级 ,存在 以 下 四 
种 名 能 : 一 个 完整 的 句子 即 一 个 论辩 成 分 (句子 


成 分 (小 名 级 ) ;@@ 一 个 句子 中 同时 包含 多 个 不 同 的 论 
辩 成 分 (小 句 级 ) ;四 多 个 句子 共同 构成 一 个 论辩 单元 
( 跨 句 子 级 ) ”  。 对 于 第 一 种 情况 ,论辩 单元 的 边界 就 
是 整个 句子 ,对 于 第 二 和 第 三 种 情况 就 需要 识别 每 个 
论辩 单元 的 准确 边界 ,对 于 第 四 种 情况 则 需 判断 不 同 
句子 间 的 关系 。 


论辩 单元 识别 


Sa ee 


句子 级 上 论 辨 句 识别 = 论辩 名 与 非 论辩 名 的 区 分 | 
a | 

小 句 级 “上 论辩 单元 边界 识别 一 论辩 单元 准确 起 始 位 置 | 
图 6 论辩 单元 识别 过 程 


对 于 论辩 名 识别 ,通常 被 转换 成 句子 分 类 问题 , 利 
用 机 融 学 习 中 的 文本 分 类 算法 区 分 论辩 名 和 非 论辩 
句 ,常用 的 分 类 算法 有 贝 叶 斯 ”” ,决策 树 ” .逻辑 回 
DEAS ,随机 森林 ”” 和 支持 向 量 机 , 均 取得 不 错 
的 分 类 效果 。 不 同 研究 中 往往 根据 任务 需求 和 语 料 特 
点 选取 不 同 的 分 类 特征 。 早 期 研究 中 所 采用 的 分 类 特 
征 主 要 是 较 浅 层 的 文本 特征 ,如 动词 .句子 长 度 、 标 点 


数量 ” .时 态 和 语 态 ” .实体 数量 ,形容词 数量 ” 等 ， 
随 着 研究 的 深入 ,语义 特征 和 情感 特征 也 被 逐步 引入 
到 分 类 模型 中 ,提高 了 分 类 效果 。 自 2018 年 开始 ， 
随 着 语 境 词 向 量 表示 ( Contextualized Word Embedding ) 
的 出 现 ,也 有 学 者 采用 BERT、ELMo 等 动态 模型 实现 
论辩 成 分 的 识别 ,得 益 于 这 类 模型 对 上 下 文 信息 的 保 
留 ,特别 是 在 模型 中 增加 论辩 主题 信息 ,能 够 取得 较 好 
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的 识别 结果 。 此 外 ,也 有 学 者 尝试 采用 无 监督 方法 
识别 论辩 句 ,如 A. Ferrara 等 将 与 论辩 主题 具有 较 高 相 
似 度 的 句子 判定 为 论辩 句 ,但 实验 结果 表明 该 方法 的 
召回 率 较 高 但 准确 率 较 低 , 特 别 是 在 非 论辩 句 较 多 的 
语 料 中 效果 较 差 5 。 我 们 对 上 述 三 种 类 型 的 论辩 名 
识别 方法 进行 了 对 比 总 结 , 得 出 如 下 结论 :文本 分 类 算 
法 容易 实现 , 且 在 训练 数据 量 较 少时 也 可 取得 不 错 的 
分 类 效果 ,但 需要 手工 构建 分 类 特征 ,模型 迁移 性 较 
弱 ; 语 境 词 向 量 模型 能 够 保留 语 境 信息 ,识别 效果 更 
好 ,但 对 训练 数据 的 规模 和 质量 都 有 一 定 要 求 ;无 监督 
算法 利用 文本 相似 度 判断 论辩 名 ,无需 构建 文本 特征 
且 只 需 少量 标注 数据 ,实现 简单 ,但 是 局 限 性 也 较 大 ， 
在 非 论辩 句 数量 较 多 情况 下 识别 效果 较 差 。 
一 针对 论辩 单元 边界 识别 ,最 简单 的 方法 是 采用 文 
本 谷类 技术 判断 某 个 词 是 否 是 论辩 单元 的 起 点 或 者 终 
BRS, 虽然 这 种 方法 在 训练 样本 较 少 的 情况 下 也 能 
得 和 R 错 的 分 类 效果 ,但 是 需要 训练 多 个 分 类 器 ,整体 训 
统 绰 本 较 高 ,并 不 常 使 用 。 论 辩 成 分 在 文本 中 的 分 布 
具 乔 明显 的 顺序 特征 ,如 往往 在 结论 之 后 给 出 前 提 ， 
上 壤 全 吝 单 元 边界 识别 更 多 的 被 转换 为 一 个 序列 标注 问 
题 \ 条 件 随机 场 (CRF ) 是 最 常用 的 论辩 单元 边界 识别 
8 ”和 。 近 年 来 随 着 深度 学 习 的 巨大 进步 ,也 有 
党 淹 开 始 采用 神经 网 络 (如 RNN 或 LSTM) 结合 条 件 随 
HLA CRF) 来 识别 论 状 单 元 边界 “- ,其 效果 优 于 仅 
储 朋 条 件 随机 场 的 方法 ,其 原因 在 于 :论辩 文 本 的 上 下 
文 划 有 较 强 的 语义 相关 性 ,循环 神经 网 络 能 够 保留 更 
远 上 离 的 上 下 文 信息 ,而 条 件 随机 场 更 多 只 能 保留 名 
内 的 上 下 文 信息 。 也 有 学 者 将 BERT 词 向 量 模型 与 
CRF 条 件 随机 场 模型 相 结合 ,取得 了 良好 的 识别 效果 ， 
甚至 超过 人 工 识 别 结果 。 这 是 因为 BERT 模型 通过 
位 置 编码 和 注意 力 机 制 实现 对 语 境 信息 更 深入 的 挖 所 
和 利用 ,但 同时 对 训练 数据 和 软 硬 件 具 有 较 高 要 求 。 
3.2 论辩 成 分 分 类 

论辩 成 分 分 类 是 指 根据 论辩 单元 在 论辩 中 承担 的 
不 同 角色 ,将 其 分 为 不 同 的 成 分 类 型 ,如 前 提 、 结 论 . 保 
证 等 。 论 辩 成 分 只 包含 前 提 和 结论 时 ,可 以 将 其 看 作 
是 一 个 简单 的 二 分 类 问题 ;论辩 成 分 为 三 个 和 更 多 个 
时 ,问题 则 转化 为 多 个 二 分 类 问题 或 多 标签 分 类 问题 ， 
现 有 研究 主要 采用 多 个 二 分 类 方法 。 也 有 研究 将 论辩 
单元 识别 与 论辩 成 分 分 类 结合 起 来 ,在 识别 论辩 单元 
的 同时 将 其 分 类 为 前 提 、 结 论 以 及 非 论辩 成 分 。 

从 技术 角度 看 ,论辩 成 分 分 类 多 采用 有 监督 的 文 
本 分 类 算法 ,如 支持 向 量 机 5 、 贝 叶 斯 "5 、 随 机 森 


Apa) ,决策 树 等 ” ,其 中 支持 向 量 机 的 分 类 效果 往往 
最 好 。 所 采用 的 特征 主要 包括 词汇 特征 (如 线索 
iia) \ 主 题词) 和 句法 特征 (如 句子 中 动词 的 数量 、 
命名 实体 的 数量 ”" ) 。 随 着 深度 学 习 技 术 发 展 ,有 学 
者 将 神经 网 络 模型 (如 CNN .LSTM'”" ) 应 用 于 论辩 
成 分 分 类 ,或 者 将 其 与 手工 构建 特征 相 结 合 ,取得 了 更 
好 的 分 类 效果 '”!。 此 外 ,也 有 学 者 采用 基于 规则 和 句 
子 相似 度 的 半 监 督 方 法 来 识别 论 状 成分” ,但 该 方法 
的 前 提 是 认为 相同 的 论辩 成 分 具有 相似 的 句法 结构 ， 
因此 应 用 具有 一 定 的 局 限 性 。 我 们 对 以 上 三 种 论辩 成 
分 识别 方法 进行 了 如 下 总 结对 比 : 传 统 分 类 算法 需 
手工 构建 特征 ;深度 学 习 算 法 能 够 自动 学 习 特 征 , 但 在 
模型 中 融 人 手工 构建 的 特征 能 够 提高 分 类 效果 ;无 监 
督 方法 无 需 构 建 特征 ,只 需 手 动 构建 规则 ,但 其 适用 范 
围 较 小 。 在 未 来 研究 中 ,将 BERT 词 向 量 模型 和 注意 
力 机 制 应 用 于 论辩 成 分 分 类 将 是 关注 的 重点 。 
3.3 论辩 关系 抽取 

对 论辩 结构 识别 的 重点 是 对 论辩 关系 的 识别 。 论 
辩 关 系 可 分 为 两 类 :一 类 是 指 基本 的 支持 .反对 和 中 立 
关系 ; 另 一 类 是 指 在 支持 和 反对 关系 基础 上 ,增加 修辞 
关系 作为 补充 的 论辩 关系 ,如 解释 、 补 充 等 ””!。 虽 然 
第 二 类 论辩 关系 能 够 提供 论辩 成 分 间 更 丰富 的 语义 信 
息 , 但 同时 也 增加 了 论辩 结构 的 识别 难度 ,通常 的 论辩 
关系 识别 主要 是 针对 第 一 类 关系 。 论 辩 关 系 的 识别 分 
为 关联 关系 判断 和 关系 分 类 两 个 阶段 , 即 首先 判断 两 
个 论辩 成 分 对 间 是 否 存在 论辩 关系 , 即 二 者 能 否 关联 ， 
然后 进一步 判断 关联 关系 的 类 型 , 即 具体 的 论辩 关系 。 

判断 一 对 论辩 成 分 间 是 否 存在 论辩 关系 可 从 两 个 
角度 进行 。 一 方面 ,可 将 该 问题 转化 为 一 个 二 分 类 问 
题 ,将 一 定 范围 内 的 两 个 论辩 成 分 拼接 成 一 段 文本 BR 
后 通过 文本 分 类 判断 该 文本 中 是 否 存在 关联 关系 1。 
另 一 方面 ,可 从 主题 相似 度 角度 进行 判断 ,基于 主题 模 
型 计算 不 同 论辩 成 分 间 的 主题 相似 度 , 并 将 相似 度 较 
高 的 两 个 文本 判定 为 具有 论辩 关系 ”” ,这 种 方法 无 
需 手 动 构建 特征 ,但 召回 率 相对 较 低 。 

论辩 关系 分 类 方法 大 致 可 以 分 为 基于 文本 蕴含 识 
别 和 基于 文本 分 类 两 类 。 文 本 蕴含 识 别 技术 主要 用 于 
推论 两 个 文本 之 间 的 语义 关系 ,针对 论辩 成 分 ,如 果 前 
提 语 名 下 能 够 推理 得 到 结论 语句 H, WDE ALAS T 2A 
含 (支持 ) 结 论 H'”。 因 此 ,有 学 者 将 其 用 来 判断 前 提 
和 假设 之 间 简 单 的 支持 或 反对 关系 * ,但 是 针对 其 间 
更 复杂 的 论辩 关系 则 无 法 基于 此 来 识别 。 论 辩 关 系 的 
识别 也 可 以 看 作 是 一 个 文本 分 类 任务 ,利用 分 类 算法 
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将 两 个 论 关 成 分 拼接 成 的 文本 片断 区 分 为 支持 或 反对 


需要 耗费 大 量 的 人 力 和 物力 ,因此 缺少 标注 准确 ,内 容 


两 类 5 ,常用 的 分 类 特征 有 语言 特征 和 篇 章 结构 特 
征 台 -3 。 此 外 ,上 下 文 语义 信息 也 是 论辩 关系 分 类 的 
重要 依据 ,由 于 循环 神经 网 络 模型 (RNN ) 及 其 变 体 
(如 LSTM) 能 够 很 好 地 捕捉 上 下 文 信息 ,因此 在 论辩 
关系 分 类 中 有 较为 广泛 的 应 用 号 -% 。 但 是 , 当 数据 量 
较 小 时 ,深度 学 习 算 法 的 分 类 效果 并 不 如 传统 机 器 学 
习 算 法 。 通 过 对 上 述 三 种 方法 进行 总 结 分 析 , 可 以 
发 现 :文本 蕴含 识别 方法 能 够 在 一 定 程度 上 判断 不 同 
成 分 间 的 推理 关系 ,但 并 不 是 依靠 严格 的 逻辑 推理 ,可 
靠 性 难以 保证 , 且 难 以 识别 复杂 的 关系 ;使 用 传统 文本 
分 类 算法 进行 论辩 关系 分 类 ,所 需 构建 的 特征 相 较 于 
论辩 单元 识别 和 论辩 成 分 分 类 更 为 复杂 ,因此 分 类 效 
里 由 比 这 两 个 任务 要 差 ; 由 于 循环 神经 网 络 模型 更 容 
易 情 氟 论 辩 成 分 间 的 序列 信息 ,因此 在 论辩 关系 分 类 
中 能 够 取得 更 好 的 效果 。 


3 论辩 结构 优化 

加 5 论 六 结构 优化 包含 两 方面 的 内 容 :首先 识别 论辩 
结 梅 中 的 隐 性 成 分 并 补充 到 现 有 结构 中 去 ,其 次 是 分 
辩 结构 中 是 否 有 相互 矛盾 冲突 的 关系 ,从 而 实现 
; 适 结 构 的 全 局 最 优化 。 

隐 性 论辩 成 分 的 识别 

,= 由 于 写作 手法 ,写作 目的 等 方面 原因 ,论辩 文 本 中 
可 能 省 略 部 分 内 容 ,造成 某 些 论 准 成 分 的 缺失 ” , 虽 
纺 相 影响 文本 的 整体 语义 表达 ,但 可 能 影响 论辩 的 清 
晰 度 和 说 服 力 ””。 论 辩 挖 气 任 务 之 一 就 是 要 重新 识 
别 岂 这 些 隐 性 成 分 ,使 论辩 结构 更 为 完备 直观 ,对 用 户 
理 铀 其 论辩 逻辑 具有 重要 意义 ,是 论辩 挖掘 中 未 来 一 
个 重要 的 研究 方向 。 

隐 性 论辩 成 分 的 重 构 和 补充 在 很 大 程度 上 依赖 于 
论辩 的 逻辑 ,只 有 充分 理解 文本 的 论辩 结构 ,才能 判断 
出 其 中 缺失 的 成 分 。N. Green 认为 构建 完整 的 论辩 结 
构 需要 考虑 论辩 型 式 .领域 知识 .假定 作者 和 潜在 读者 
的 共同 认 知 以 及 论辩 发 生 的 背景 ”。 目 前 ,鉴于 论 
辩 结构 本 身 的 复杂 性 ,对 隐 性 论辩 成 分 的 发 现 与 补充 
在 很 大 程度 上 还 主要 依赖 人 工 来 进行 。 有 研究 者 在 自 
动 识别 出 “前 提 - 结论 ”的 基础 上 ,依据 论辩 型 式 或 者 
三 段 论 人 工 判断 其 中 缺失 的 论辩 成 分 ”“。 也 有 研 
究 者 部 分 依靠 机 器 学 习 方法 实现 隐 性 成 分 的 半自动 识 
别 ,譬如 ,采用 文本 分 类 技术 自动 判断 一 对 “前 提 - 结 
论 "之 间 正确 的 “保证 "“ 。 

总 体 来 说 , 现 有 的 机 器 学 习 方 法 难以 完全 自动 实 
现 隐 性 论辩 成 分 的 识别 。 此 外 ,人 工 识别 隐 性 成 分 也 


丰富 的 语料库 ,这 也 为 隐 性 论辩 成 分 的 自动 识别 带 来 
了 很 大 障碍 。 
3.4.2 论辩 结构 全 局 优化 

C. Stab 等 在 对 议论 文 的 论辩 结构 进行 分 析 后 发 
现 , 文 本 的 论辩 结构 往往 具有 歧义 性 , 即 同 一 文本 可 以 
采用 不 同 的 论辩 结构 描述 其 论辩 过 程 沁 ,这 种 情况 在 
缺乏 结构 指示 词 时 表现 更 为 明显 。 论辩 结构 的 歧 
义 性 给 论辩 文本 的 手工 标注 和 自动 挖掘 带 来 了 巨大 挑 
战 ,需要 相应 的 标准 和 指标 评估 论辩 结构 并 甄别 出 最 
优 的 结构 。 对 论辩 结构 直接 进行 比较 分 析 的 研究 较 
少 ,多 数 研究 往往 采用 逻辑 学 中 对 论辩 质量 评价 的 方 
法 间接 评估 论辩 结构 。 
由 于 论辩 成 分 通过 论辩 关系 相互 关联 可 以 形成 图 
的 结构 (Graph Structure) ， 因 此 A. Lauscher 等 提出 了 
基于 图 结构 特征 的 论辩 结构 评价 指标 ,包括 图 直径 . 子 
图 数量 .结构 深度 等 ” 。 在 生成 的 论辩 图 基础 上 ,有 
研究 者 采用 最 小 生成 树 或 者 线性 规划 两 种 方法 对 图 结 
构 进行 全 局 优化 ,以 保证 论辩 关系 间 不 存在 冲突 “|。 
实验 结果 表明 ,这 两 种 方法 的 优化 效果 相差 并 不 
大 '“ 。 目 前 来 说 , 现 有 研究 多 集中 在 论辩 结构 的 识 
别 ,而 对 论辩 结构 优化 的 研究 较 少 。 论 辩 结 构 的 特征 、 
属性 .评价 指标 也 缺少 相应 的 理论 基础 。 


4 论辩 挖掘 的 应 用 


目前 论辩 挖掘 的 应 用 主要 集中 在 议论 文科 学 论 
文 社交 媒体 内 容 和 法 律 判 决 文书 等 论辩 性 文本 语 料 ， 
涉及 教育 .科学 研究 .社交 媒体 、 法 律 等 领域 。 
4.1 法 律 文本 的 论辩 挖掘 

法 律 领域 是 论辩 挖掘 技术 最 早 应 用 的 领域 之 一 。 
法 律 判决 书 等 法 律 文本 中 富 含 案件 判决 的 推理 论证 过 
程 ,通过 对 其 中 的 论辩 结构 进行 解析 ,分 析 证 据 类 型 ， 
构建 冲突 证 据 的 处 理 规则 , 可 以 用 于 辅助 断案 “|。 
2007 年 ,M. F. Moens 首次 对 法 律 文本 中 的 论辩 性 内 容 
进行 识别 ” ,但 没有 区 分 具体 的 论辩 成 分 。2009 年 ， 
R. Mochales 和 M. F. Moens 抽取 法 律 判决 书 中 的 简单 
论辩 结构 ,形成 树 形 结构 图 清晰 地 展示 判决 书 中 的 最 
终结 


从 .结论 的 前 提 以 及 前 提 的 前 提 "™ , 极 大 地 方便 了 
相关 人 员 的 阅读 和 理解 。 接 下 来 ,有 研究 者 对 法 律 文 
本 的 细 粒 度 论辩 结构 进行 了 分 析 , 细 化 了 论辩 成 分 的 
类 型 ,但 只 是 提供 了 标注 语 料 ,并 没有 实现 论辩 成 分 和 
论辩 关系 的 自动 抽取 “| 。 

总 体 来 看 ,法 律 文本 中 包含 的 论辩 成 分 类 型 较 多 ， 
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对 文本 内 容 的 理解 需要 一 定 的 法 律 背 景 知 识 ,这 增加 
了 论辩 内 容 抽 取 的 难度 。 此 外 ,目前 研究 仅 关 注 支 持 
和 反对 两 种 基本 的 论辩 关系 ,法 律 文本 中 其 他 类 型 的 
论辩 关系 还 有 竺 于 进一步 研究 。 
4.2 议论 文 的 论辩 挖掘 

议论 文 常 常 通 过 分 析 争 议 性 话题 来 阐述 作者 观 
点 ,具有 明显 的 论辩 过 程 , 是 论辩 挖掘 的 重要 语 料 。 目 
前 针对 议论 文 的 论辩 挖掘 多 用 于 议论 文 自动 评分 , 通 
常 从 论辩 强度 和 可 信 度 两 个 方面 进行 评价 。2014 年 ， 


Y. Song 率先 利用 论辩 型 式 描 述 议论 文 结构 ,通过 自动 
判断 议论 文 与 论辩 型 式 的 匹配 程度 , 发现 匹配 程度 与 
议论 文 质量 正 相关 ,但 未 能 实现 自动 评分 ”。2015 
年 ,I. Persing 等 通过 分 析 论 辩 成 分 间 是 否 存在 矛盾 等 
指标 对 论辩 强度 进行 判断 ,并 基于 此 对 议论 文 进行 自 


HUE + 结论 ) 以 及 论辩 的 数量 来 对 其 论辩 质量 
2- ,但 该 研究 只 考虑 了 论辩 成 分 而 忽略 了 
论 半 关系 的 作用 。 此 外 ,论辩 挖 据 也 可 用 于 议论 文 畏 
时 写作 ,通过 解析 论辩 结构 帮助 作者 发 现 其 中 缺失 或 
六 名 的 成 分 。 艾 如 ,2014 年 ,G，Stab 通过 对 抽取 的 前 
提 乓 可 靠 性 以 及 前 提 对 结论 的 支持 程度 进行 自动 判 
只, 淘 议 论文 的 写作 和 评价 提供 支持 ”) 。 但 是 ,当前 
研究 未 能 从 论点 安排 .缺失 成 分 补充 等 方面 进行 研究 ， 
不 浅 可 从 这 些 方面 人手 考察 其 辅助 写作 的 可 能 性 。 
4.8 社交 媒体 的 论辩 挖掘 
"三 用 户 在 社交 媒体 中 对 问题 的 讨论 分 析 具 有 明显 的 
论 疆 特征 ,针对 社交 媒体 的 论辩 挖掘 包括 决策 支持 、 真 
伪 判 断 和 关键 问题 识别 等 。 社交 媒体 是 用 户 表达 观点 
和 交流 意见 的 重要 平台 ,通过 分 析 用 户 对 某 一 问题 的 
观点 态度 以 及 其 背后 文 持 或 反对 的 原因 ,可 以 更 加 深 
入 地 理解 用 户 观点 ,并 为 政府 决策 提供 支持 ”。 此 
外 ,有 研究 者 对 论坛 中 用 户 评论 的 论辩 说 服 力 进行 自 
动 分 类 ,识别 出 具有 高 说 服 力 的 评论 7 ,对 于 引导 大 
众 僵 论 具有 参考 价值 。 社 交 媒体 中 的 用 户 生成 内 容 有 
时 真 假 难 辨 ,有 研究 者 通过 对 论 准 前 提 的 来 源 进行 分 
析 , 辅 助 判 断 其 结论 的 真 伪 "" 。 用 户 在 社交 媒体 中 的 
论辩 往往 集中 在 某 些 重要 问题 上 ,识别 出 论辩 的 核心 
问题 是 解决 争议 的 关键 ,譬如 ,B. Konat 等 分 析 论 坛 中 
对 社会 事件 的 讨论 ,通过 解析 其 论辩 结构 构建 论辩 
图 ,从 而 识别 出 争议 最 多 的 论辩 成 分 "” 。 

论辩 挖 气 在 社交 媒体 中 的 应 用 方向 较 多 , 现 有 研 
究 都 只 关注 单个 应 用 ,缺乏 系统 性 ,如 利用 社交 平台 进 


行 决策 支持 时 ,同样 需要 判断 来 源 信息 的 真 伪 。 未 来 
可 以 基于 论辩 结构 进行 更 深入 的 研究 ,如 和 与 情 监 测 \ 谣 
言 识别 等 。 
4.4 ”科学 论文 的 论辩 挖掘 

科学 论文 的 作用 是 向 读者 传递 作者 的 科学 观点 和 
科学 结论 并 说 服 读者 接受 ,其 本 质 也 是 一 个 论辩 过 程 。 
相 较 于 议论 文 ,科学 论文 的 论辩 过 程 更 为 复杂 , 且 不 同 
学 科 的 论辩 方式 存在 差异 。 目 前 针对 科学 论文 的 论辩 
挖掘 研究 较 少 , 一些 研究 主要 是 从 篇 章 结构 角度 解析 
科学 论文 中 的 论辩 成 分 ,如 S. Teufel’) T. Mayer[71 和 
A. J. Yepes ™ 的 研究 ,但 并 未 对 其 中 的 论辩 关系 进行 
识别 ,并 不 属于 严格 意义 的 论辩 挖掘 。 目 前 , 仅 有 很 少 
的 研究 者 针对 科学 论文 的 部 分 内 容 进行 了 论辩 结构 的 
挖掘 , 璧 如 ,2015 年 ,N. Green 自动 识别 生物 医学 领域 
科学 论文 中 引言 和 讨论 部 分 的 论辩 结构 ,然后 基于 论 
辩 型 式 对 隐 性 论辩 成 分 进行 人 工 识别 ,从 而 帮助 读者 
理解 论文 中 有 关 基 因 与 疾病 相互 关系 的 论辩 内 
Be 162,76] : 

针对 科学 论文 的 论辩 挖掘 目前 存在 几 个 方面 的 问 
题 :@ 论 状语 料 缺 乏 , 现 有 语料库 规模 较 小 ,难以 满足 
论辩 挖掘 的 数据 需求 ;@ 尚 未 有 针对 科学 论文 全 文 的 
论辩 挖掘 ,大 多 数 研究 主要 集中 在 摘要 、 引 言 和 讨论 等 
论辩 过 程 较为 明显 的 篇 章 内 ;@ 针 对 科学 文本 论辩 的 
具体 应 用 研究 较 少 。 


5 结语 


本 文 对 论辩 挖掘 的 概念 、 任 务 流 程 以 及 主要 实现 
方法 与 技术 进行 了 梳理 总 结 。 此 外 ,还 对 论辩 挖掘 目 
前 的 研究 与 应 用 状况 进行 了 介绍 与 评述 。 

从 论辩 结构 来 看 , 现 有 研究 主要 关注 单个 论点 的 
论辩 结构 ,缺少 对 多 个 论点 间 论 辩 结 构 的 挖掘 ,如 科学 
论文 全 文 的 论辩 结构 .社交 媒体 中 原 贴 和 评论 组 成 的 
多 个 文档 间 的 论辩 结构 尚未 有 相关 研究 。 在 多 个 论点 
构成 的 论辩 中 ,前 提 和 结论 是 可 以 相互 转化 的 ,一 个 论 
点 的 前 提 往 往 是 另 一 个 论点 的 结论 ,如何 体现 这 种 论 
辩 成 分 的 角色 变化 ,构建 论证 链 ,是 值得 研究 与 关注 的 
问题 。 此 外 ,目前 对 论辩 结构 中 隐 人 性 论辩 成 分 的 识别 
还 不 够 成 熟 , 壁 如 ,如 何 识别 论辩 语 境 中 未 明确 表达 的 
共识 ,这 对 于 构建 完整 的 论辩 结构 具有 重要 意义 。 

从 技术 角度 来 看 ,论辩 结构 识别 主要 以 有 监督 学 
习 方法 为 主 ,需要 大 量 的 高 质量 标注 语 料 。 但 是 ,由 于 
论辩 结构 本 身 的 复杂 性 , 语 料 标 注 需 要 大 量 的 人 力 物 
力 ,因此 目前 还 缺少 大 型 标准 语料库 。 在 已 有 研究 中 ， 
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多 是 采用 传统 机 器 学 习 技术 进行 论辩 成 分 的 识别 和 论 
辩 关 系 的 抽取 ,但 需要 手工 构建 大 量 特征 ,模型 泛 化 能 
力 较 弱 。 随 着 深度 学 习 技 术 的 不 断 发 展 进 步 , 将 其 应 
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方向 。 
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Argument Mining Review 
Li Yongze Ou Shiyan 
School of Information Management, Nanjing University, Nanjing 210023 

Abstract: | Purpose/significance | Argument mining can identify the argument structure in argumentative texts, 
so as to help users to understand the reason and process of drawing a conclusion, and thus has important academic 
and application value. In recent years, argument mining has obtained great attention in social media content mining , 
legal assistance judgment, decision support and so on, and become a new research direction in the field of text min- 
ing. The purpose of this paper is to sort out and summarize the existing studies and application of argument mining, 
to discover new research hot spots, and to provide reference for future research. | Method/process | We serched lit- 
eratures by using the keywords of “argument mining OR argument component OR argument structure OR argumenta- 
tion mining” from the Web of Science and ACL databases and obtained a total of 220 articles, and then analyzed 
them from three aspects: argument models, argument mining tasks and argument mining applications by intensive 
reading and content analysis. | Result/conclusion | The research on argument mining has just started. Existing stud- 
多 focused more on simple argumentative texts such as social media, and ignored complex argumentative texts such as 
Gaientific papers. In future, researchers can focus on the argument mining of complex texts and carry out research 
[ew three aspects; argument annotation schemas, the identification of argument components and relationships, and 

Che optimization of argument structures. 


Keywords; argument mining argument model argument structure argument components 


《图 书 情报 工作 》2020 年 选 题 指南 


编者 按 ] 本 选 题 指南 是 根据 本 刊 的 定位 ,性质 与 发 展 需 要 ,结合 图 情 档 学 科 前 沿 热点 及 当前 与 未 来 需要 解决 的 重要 问题 ,邀请 本 刊 编 委 
和 管 年 编 委 为 本 刊 策划 定制 ,再 经 编辑 部 整理 .修改 和 补充 而 形成 的 。 这 是 本 刊 2020 年 度 关注 .报道 的 重点 领域 (包括 但 不 限于 这 些 选 题 ) ， 
供 任 着 选 题 和 研究 以 及 向 本 刊 投稿 时 的 参考 和 借鉴 。 
让 中 国 特色 图 情 档 学 科 体系 学术 体系 .话语 体系 建设 24. 开放 数据 生态 中 的 元 数据 发 展 模式 研究 
EL. 图 情 档 一 级 学 科 建 设 与 融合 发 展 战略 25. 开放 科学 数据 行为 及 其 模型 构建 


图 书馆 “十 四 五 "规划 编制 的 关键 问题 26. 数据 资源 建设 与 数据 馆 员 能 力 建设 
国家 文献 信息 资源 保障 能 力 及 其 建设 27. 大 数据 时 代 信息 组 织 与 知识 组 织 
S. 开放 科学 背景 下 信息 资源 建设 问题 28. 科学 数据 管理 与 服务 
6. 全 民 阅 读 中 图 书馆 的 定位 与 担当 29. 学 术 成 果 监 测 与 学 科 竞 争 力 分 析 
7. 图 书馆 空间 服务 的 理论 与 实践 30. 情报 计算 (计算 情报 ) 的 理论 与 方法 
8. 嵌入 式 学 科 服 务 的 绩效 评价 与 管理 31. 情报 分 析 服务 质量 与 效能 评价 
9. 公众 科学 .科学 素养 与 泛 信息 素养 32. 情报 研究 与 智库 研究 的 关系 
10. 图 书馆 服务 本 科教 育 的 模式 与 能 33. 科学 与 技术 前 沿 分 析 理论 与 方法 
11. 图 书馆 文化 传承 与 文化 育 人 的 理论 与 实践 34. 健康 中 国 2030 战略 下 的 健康 信息 学 
12. 图 书馆 出 版 与 出 版 服务 35. 人 机 交互 行为 及 服务 模式 创新 
13. 新 媒体 时 代 图 书馆 科学 传播 的 功能 与 实践 36. 图 情 档 在 新 型 智库 建设 中 的 作用 机 制 
14. 图 书馆 营销 推广 的 战略 与 策略 研究 37. 智能 信息 服务 的 理论 和 方法 
15. 图 书馆 泛 合作 研究 的 实践 与 理论 38. 数字 公共 文化 资源 .服务 与 体系 建设 
16. 国家 区 域 发 展 战略 下 图 书馆 联盟 建设 与 创新 服务 39. 数据 时 代 政务 信息 资源 管理 和 开发 利用 
17. 网 络 空间 治理 的 情报 学 问题 40. 数字 档案 馆 生态 系统 治理 策略 
18. 知识 产权 信息 服务 能 力 与 效果 评估 41. 档案 数据 治理 理论 与 治理 体系 
19. 信息 分 析 中 的 新 技术 与 新 方法 42. 政府 数据 开放 平台 应 用 与 评价 
20. 情报 服务 标准 化 与 评价 43. 社会 记忆 视角 下 档案 信息 资源 整理 ,保护 与 开发 
21. 数字 人 文 与 数字 学 术 的 研究 与 实践 44. 民族 文献 遗产 产业 化 开发 与 利用 
22. 人 工 智能 在 图 情 档 中 的 应 用 45. 图 情 档 学 科教 育 模式 与 人 才 培养 能 
23. 图 书馆 智能 服务 与 智慧 服务 


139 


